【データ分析】解釈するときは、何かと比べてみよう
こんにちは、lichtです。EURO最高ですね。イタリアが負けってしまったので、個人的には残念ですが、4年に1度のこの時期はとても楽しいです。
さて、本題ですが、、、、
今まではTableauに関するブログをアップしてきました。ようやく、本業に関するデータ分析に関するエントリを書きました。
以前のエントリで、【Tableau】クロス表の色付けをカスタマイズして、解釈しやすくする で、下記のように書きました。
※分析は「比較すること」「何と比較するか」がとても大切です。この辺り、今後のブログで触れらればと思っております。
本エントリは、その内容についてになります。
引用の通り、
- 比較すること
- 何と比較するか
の構成で進めます。
比較すること
次の棒は長いですか?短いですか?
そう問われたら、どんな方法をとりますか?
答えは、他の棒を持ってきて比べるです。
こうすると、一目瞭然で先ほどの棒は、他の棒に比べ、短いことが分かります。棒1本ではそれが長いか、短いか判断できませんでしたが、これなら長いか短いか分かります。
何を伝えたかったかと言うと、分析結果(棒の長さ)を対して、必ず比較対象(一般的な棒の長さ)を入れて、結果を解釈しましょうということです。
比較することで、その対象の相対的な評価が可能になるわけです。
少し話は逸れますが、比較せずとも分かるよと思った方がいるかもしれません。ただ、これは既知に得た情報で処理しているにすぎません。例えば、身長が190センチだったら高いじゃんと思うわけです。しかし、これは日本人の平均的な身長を知識として持っているからで、頭の中でその知識と比較しているからなのです。
では、何と比較するのか
それは次の3つを押さえることが大切と思っています。説明の便宜上、比較選定の1・2・3と呼びます。
- 同質であること
- 重複が極力ないこと
- 十分なn数が確保できていること
1.同質であること
棒の長さと人の身長を比べていけません。あくまで、「棒」と比べるのは「棒」であるべきです。その際は、ギネス級の長さの棒のような外れ値とも比較してはいけません。
2.重複が極力少ないこと
20代と男性20代を比較するのは、避けるべきです。なぜなら、20代の中に男性20代が含まれているので、同じものを比較していると同義だからです。この場合は男性20代と女性20代を比較することが望ましいです。
3.十分なn数が確保できていること
nとは、標本数(サンプル数)を指します。男性のn数が100人、女性のn数が20人であれば、女性の結果が極端に出ている可能性が高いです。この例ならば、女性1人の意見を5倍結果に影響を与えてしまっています。
最後に
比較選定の1・2・3は、いずれも当たり前な話に聞こえるかもしませんが、分析が複雑になると、意外に陥りやすい落とし穴です。
また、分析と聞くと、複雑な統計処理を連想してしまう方もいるかもしれませんが、比較だけでも十分な分析が可能になると考えています。
分析結果の解釈に悩んだら、何かを持ってきて比較してみてください。そうすれば、何か見えてくるかもしれません。